最近,Silver 等人。[65] 认为奖励最大化的概念足以支撑所有智能。具体来说,他们提出了奖励就足够了的假设,即“智能及其相关能力可以理解为通过代理在其环境中行动来最大化奖励”,并主张奖励最大化是创造通用人工智能 (AGI) 的途径。虽然其他人批评了这一假设和随后的说法 [44,54,60,64],但在这里我们提出这样的论点:Silver 等人。在关注标量奖励最大化方面犯了错误。考虑多个相互冲突的目标的能力是自然智能和人工智能的一个关键方面,并且不一定会通过最大化标量奖励而出现或充分解决。此外,即使最大化标量奖励足以支持 AGI 的出现,我们认为这种方法是不可取的,因为它大大增加了部署该 AGI 导致不良后果的可能性。因此,我们主张更合适的智能模型应该通过使用矢量值奖励明确考虑多个目标。
![arXiv:2112.15422v1 [cs.AI] 2021 年 11 月 25 日PDF文件第1页](/bimg/1/1ecf1833384e8413797aeab1ec2d653eb8fd7e73.webp)
![arXiv:2112.15422v1 [cs.AI] 2021 年 11 月 25 日PDF文件第2页](/bimg/4/4a818b004cbe3a86357d6cfafadfed3d5bbe7ba3.webp)
![arXiv:2112.15422v1 [cs.AI] 2021 年 11 月 25 日PDF文件第3页](/bimg/b/b2de1e4b1a98f2207526731891d7ef142631436f.webp)
![arXiv:2112.15422v1 [cs.AI] 2021 年 11 月 25 日PDF文件第4页](/bimg/8/8f72e7b2698168e48cd47baac0fb19fba117213a.webp)
![arXiv:2112.15422v1 [cs.AI] 2021 年 11 月 25 日PDF文件第5页](/bimg/5/5393ed767438bde888a9040522c4c401c1cf410c.webp)
